Muestreo y Análisis de Datos - Universidad de Alicante
Dpto. de Fundamentos del Análisis Económico. Universidad de Alicante
AED es una fase inicial importante
conocer nuestros datos (qué variables, tipo de información, calidad)
encontrar escenarios de análisis
NO hay una “receta”: el proceso es diferente con distintos datos o con los mismos datos para diferentes objetivos
Es un proceso iterativo y creativo para descubrir información
Contexto: conocimiento previo de nuestros datos, aquí o aquí
fuente (de dónde han salido), cómo están almacenados (.csv, .xlsx, …)
“diccionario”: información de cada variable (descripción, unidades, etc.)
Limpiar y procesar los datos:
Un caso destacado: ¿cuántos NA? ¿qué hacer con ellos?
NAs al modelizarVariación: tendencia de los valores de una variable a cambiar entre medidas
Cada variable tiene su propio patrón de variación: esta información relevante se obtiene analizando su distribución de valores, númerica o gráficamente
summary() para calcular estadísticos básicos, y complementer con otros (varianza, percentiles, asimetría y kurtosis, etc.)count() o table() (para frecuencias) y summarize() (con funciones para estadísticos)¿Sería preferible discretizar alguna variable continua?
Variables con alta dispersión o distribución asimétrica (logs?)
Valores inusuales (“atípicos” o “outliers”): no encajan en el patrón general
skimrDataExplorerdlookrdescribe(): estadísticos como un data frame, para usar con kable()library(dlookr) # en MacOS, puede pedir instalar XQuartz
describe(Bank, campaign:y)
Bank %>% describe() %>%
select(described_variables, skewness, mean, p25, p50, p75) %>%
filter(!is.na(skewness)) %>% arrange(desc(abs(skewness)))
Bank %>%
group_by(education) %>%
describe(age, balance, campaign, pdays) La variación describe el comportamiento dentro de una variable
La covariación describe relaciones entre variables: tendencia a que sus valores cambien juntos
Útil para formular modelos, que explican patrones complejos de los datos
¿qué explica la relación sugerida por el patrón de covariación?
¿cómo de fuerte es la relación?
¿otras variables pueden afectar a la relación? ¿varían por subgrupos?
Covariación implica que los valores de una variable se pueden predecir a partir de otra
1.- mediante el histograma o densidad (en el mismo gráfico o diferentes)
2.- mediante gráficos de caja: menos información pero más fácil de comparar
Si un grupo es mucho más pequeño, es difícil ver las diferencias
Se pueden necesitar reordenar las categorías de un factor, rotar los ejes, etc.
\[ E[Y|X]=\beta_0+\beta_1 X \Rightarrow \begin{cases} E[Y|X=0] &=\beta_0 \\ E[Y|X=1]&=\beta_0+\beta_1 \end{cases} \]
smoothers ayuda a apreciar un patrón en los puntosMuchas partes del AED son parcialmente “automatizables”: muchos paquetes tratan de facilitar esas partes
GwalkR, explore
DataMaid, smartEDA